Introdução ao Aprendizado por Reforço Profundo (DRL)
O Aprendizado por Reforço Profundo (DRL) combina as capacidades de representação em alta dimensão dos Redes Neurais Profundas com o quadro de controle ótimo do Aprendizado por Reforço. Diferentemente do aprendizado supervisionado ou não supervisionado, o DRL agentes aprende por meio de interações experimentais e baseadas em erros dentro de um ambiente dinâmico ambiente, tomando decisões sequenciais decisões sequenciais sem rótulos imediatos ou explícitos. Essa integração permite que os agentes lidem diretamente com entradas complexas e brutas (como dados de pixels).
1. O Paradigma de Aprendizado do DRL
O agente de Aprendizado por Reforço opera em um ciclo contínuo: observando o ambiente Estado ($S_t$), realizando uma Ação ($A_t$), e recebendo uma recompensa escalar potencialmente rara ou atrasada Recompensa ($R_{t+1}$). O principal desafio é o problema de atribuição de crédito: determinar quais ações passadas foram responsáveis por um sinal de recompensa futura.
2. O Objetivo de Otimização
O objetivo final é descobrir uma estratégia ótima, ou política ($\pi^*$), que é uma correspondência de estados para ações, que maximiza o Retorno Acumulado Descontado Esperado ($G_t$). O fator de desconto ($\gamma \in [0, 1]$) é matematicamente crucial, definindo quanto valorizamos recompensas imediatas em comparação com recompensas esperadas no futuro distante.
$$G_t = \sum_{k=0}^{\infty} \gamma^k R_{t+k+1}$$1. $\gamma = 0$
2. $\gamma \approx 1$
Describe the agent's behavioral preference in each case regarding the timeline of rewards.
If $\gamma = 0$, the agent is myopic (shortsighted), focusing only on the immediate reward $R_{t+1}$. If $\gamma \approx 1$, the agent is far-sighted, equally weighting immediate and distant future rewards, leading to planning over a very long horizon.